The findable, accessible, interoperable, and reusable (FAIR) data principles have provided a framework for examining, evaluating, and improving how we share data with the aim of facilitating scientific discovery. Efforts have been made to generalize these principles to research software and other digital products. Artificial intelligence (AI) models -- algorithms that have been trained on data rather than explicitly programmed -- are an important target for this because of the ever-increasing pace with which AI is transforming scientific and engineering domains. In this paper, we propose a practical definition of FAIR principles for AI models and create a FAIR AI project template that promotes adherence to these principles. We demonstrate how to implement these principles using a concrete example from experimental high energy physics: a graph neural network for identifying Higgs bosons decaying to bottom quarks. We study the robustness of these FAIR AI models and their portability across hardware architectures and software frameworks, and report new insights on the interpretability of AI predictions by studying the interplay between FAIR datasets and AI models. Enabled by publishing FAIR AI models, these studies pave the way toward reliable and automated AI-driven scientific discovery.
translated by 谷歌翻译
视频中的战斗检测是当今监视系统和流媒体的流行率的新兴深度学习应用程序。以前的工作主要依靠行动识别技术来解决这个问题。在本文中,我们提出了一种简单但有效的方法,该方法从新的角度解决了任务:我们将战斗检测模型设计为动作感知功能提取器和异常得分生成器的组成。另外,考虑到视频收集帧级标签太费力了,我们设计了一个弱监督的两阶段训练计划,在此我们使用在视频级别标签上计算出的多个实体学习损失来培训得分生成器,并采用自我训练的技术以进一步提高其性能。在公开可用的大规模数据集(UBI-Fights)上进行了广泛的实验,证明了我们方法的有效性,并且数据集的性能超过了几种先前的最先进的方法。此外,我们收集了一个新的数据集VFD-2000,该数据集专门研究视频战斗检测,比现有数据集更大,场景更大。我们的方法的实现和拟议的数据集将在https://github.com/hepta-col/videofightdetection上公开获得。
translated by 谷歌翻译
标准化流是构建概率和生成模型的流行方法。但是,由于需要计算雅各布人的计算昂贵决定因素,因此对流量的最大似然训练是具有挑战性的。本文通过引入一种受到两样本测试启发的流动训练的方法来解决这一挑战。我们框架的核心是能源目标,这是适当评分规则的多维扩展,该规则基于随机预测,可以接受有效的估计器,并且超过了一系列可以在我们的框架中得出的替代两样本目标。至关重要的是,能量目标及其替代方案不需要计算决定因素,因此支持不适合最大似然训练的一般流量体系结构(例如,密度连接的网络)。我们从经验上证明,能量流达到竞争性生成建模性能,同时保持快速产生和后部推断。
translated by 谷歌翻译
在考虑混杂变量时估计干预措施的效果是因果推断的关键任务。通常,混杂因素没有观察到,但是我们可以访问大量的非结构化数据(图像,文本),这些数据包含有关缺失混杂因素的有价值的代理信号。本文表明,利用通常被现有算法未使用的非结构化数据提高了因果效应估计的准确性。具体而言,我们引入了深层多模式结构方程,这是一个生成模型,其中混杂因素是潜在变量,非结构化数据是代理变量。该模型支持多个多模式代理(图像,文本)以及缺少数据。我们从经验上证明了基因组学和医疗保健的任务,我们的方法纠正了使用非结构化输入混淆,从而有可能使用以前在因果推理中不使用的大量数据。
translated by 谷歌翻译
3D扫描是一种复杂的多级进程,它产生了由于遮挡,反射,阴影,扫描仪运动,物体表面的特定属性,对象曲线的特定属性,Imperfect重建算法等指向云完成而产生损坏部件的对象的点云。填写对象的缺失部分并获得其高质量的3D表示。现有的完成方法在学术数据集中表现良好,具有预定义的对象类和非常特定的缺陷类型;然而,它们的性能在真实的环境中下降,并在以前看不见的对象类上进一步降低。我们提出了一种在对称物体上表现良好的新颖框架,这些框架在人造环境中普遍存在。与基于学习的方法不同,所提出的框架不需要培训数据,并且能够使用例如在客户3D扫描过程中完成非关键损坏。 kinect,飞行时间或结构化光扫描仪。通过彻底的实验,我们表明拟议的框架在云完成现实世界客户扫描的点云完成时实现了最先进的效率。我们在两种类型的数据集中基准框架性能:正确增强现有的学术数据集和各种对象的实际3D扫描。
translated by 谷歌翻译
可预测的不确定性可以通过两个性能 - 校准和清晰度来表征。本文争辩说明这些属性的不确定性,并提出了在深度学习中强制执行它们的简单算法。我们的方法专注于校准 - 分布校准的最强概念 - 并通过用神经估计器拟合低维密度或定量函数来实施它。由此产生的方法比以前的分类和回归方式更简单,更广泛适用。凭经验,我们发现我们的方法改善了几个任务的预测性不确定性,具有最小的计算和实现开销。我们的见解表明,培训深度学习模式的简单和改进方式,导致应准确的不确定性,应利用,以改善下游应用程序的性能。
translated by 谷歌翻译
现代分类算法易于对抗对抗示例 - 对导致算法产生不期望的行为的输入扰动。在这项工作中,我们寻求理解和扩展跨域的对抗性示例,其中输入是离散的,特别是在新域中,例如计算生物学。作为实现这一目标的步骤,我们正规化了在任何离散设置中应用的同义对手示例的概念,并描述了构建此类示例的简单域 - 不可原谅算法。我们在多个域施用该算法 - 包括情绪分析和DNA序列分类 - 并发现它一直揭示逆势实例。我们从理论上寻求理解他们的普遍性,我们将其存在归因于虚假令牌相关性,这是一个特定于离散空间的统计现象。我们的作品是朝着朝向与连续输入类似的离散对抗的例子的域名侵害治疗的一步。
translated by 谷歌翻译
机器学习的许多应用涉及预测模型输出的灵活概率分布。我们提出了自动评级分位式流动,这是一种灵活的概率模型,高维变量,可用于准确地捕获预测的炼膜不确定性。这些模型是根据适当评分规则使用新颖目标培训的自回归流动的情况,这简化了培训期间雅各比亚的计算昂贵的决定因素,并支持新型的神经结构。我们证明这些模型可用于参数化预测条件分布,提高时间序列预测和对象检测的概率预测质量。
translated by 谷歌翻译
贝叶斯优化是一种过程,允许获得黑盒功能的全局最佳功能,并且在超参数优化等应用中有用。在目标函数的形状上估计的不确定性估计是引导优化过程的工具。但是,如果客观函数违反基础模型(例如,高斯)的假设,这些估计可能是不准确的。我们提出了一种简单的算法,可以通过目标函数校准后部分布的不确定性作为贝叶斯型优化过程的一部分。我们表明,通过提高校准后分布的不确定性估计,贝叶斯优化使得更好的决策并以较少的步骤到达全球最佳。我们表明,该技术提高了贝叶斯优化对标准基准函数和超参数优化任务的性能。
translated by 谷歌翻译
深奥学习算法和复杂数据集越来越表征现代临床决策支持系统(CDSS)。因此,当在实践中面临艰难的诊断或治疗决策时,临床医生不能轻易或快速地审查CDSS推荐。过度信任或欠信任频繁。先前的研究通过解释DST数据输入和算法机制,探索了支持这些评估。本文探讨了一种不同的方法:提供来自生物医学文学的恰当相关的科学证据。我们展示了一个概念验证系统,临床证据引擎,展示这种方法的技术和设计可行性,跨三个域(心血管疾病,自闭症,癌症)。利用临床生物商,该系统可以基于长度临床问题有效识别临床试验报告(例如,在需要动脉导管的重症监护室中的成年患者中的导尿管感染的风险,如果用POOMIDONE碘 - 酒精治疗)。这种能力使系统能够识别与诊断/治疗假设相关的临床试验 - 临床医生或CDSS。此外,临床证据发动机可以识别临床试验摘要的关键部分,包括患者人群(例如,需要动脉导管的重症监护室的成年患者),干预(POOMIDONE碘 - 醇)和结果(导管感染的风险)。这种能力开辟了使临床医生能够实现1)迅速确定临床试验和临床问题之间的匹配,以及2)了解审判的结果和背景而无需广泛阅读。我们通过说明系统的两个示例使用场景来展示这一潜力。我们讨论了设计DST解释的想法,不像DST或算法那样具体,而是作为域名无话学决策支持基础设施。
translated by 谷歌翻译